智能论文笔记

Towards Simple and Efficient Task-Adaptive Pre-training for Text Classification

Arnav Ladkat , Aamir Miyajiwala , Samiksha Jagadale , Rekha Kulkarni , Raviraj Joshi

分类：自然语言处理 | 机器学习

2022-09-26

语言模型是使用大量通用数据（如Book Copus，Common Crawl和Wikipedia）进行预训练的，这对于模型了解语言的语言特征至关重要。新的研究建议将域自适应预训练（DAPT）和任务自适应预训练（TAPT）作为最终填充任务之前的中间步骤。此步骤有助于涵盖目标域词汇，并改善下游任务的模型性能。在这项工作中，我们仅研究训练在TAPT和特定于任务的填充过程中嵌入层对模型性能的影响。基于我们的研究，我们提出了一种简单的方法，以通过对BERT层进行选择性预训练，使基于BERT的模型的中间步骤更有效。我们表明，在TAPT期间仅训练BERT嵌入层足以适应目标域的词汇并实现可比的性能。我们的方法在计算上是有效的，在TAPT期间训练了78％的参数。所提出的嵌入层列式方法也可以是一种有效的域适应技术。

translated by 谷歌翻译

On Sensitivity of Deep Learning Based Text Classification Algorithms to Practical Input Perturbations

Aamir Miyajiwala , Arnav Ladkat , Samiksha Jagadale , Raviraj Joshi

分类：自然语言处理 | 机器学习

2022-01-02

文本分类是一种基本的自然语言处理任务，具有各种应用，其中深度学习方法产生了最先进的结果。虽然这些模型对他们的黑匣子的性质严重批评，但他们对输入文本中的轻微扰动的鲁布利是一个关注的问题。在这项工作中，我们进行了一种数据专注的研究，评估系统实际扰动对基于CNN，LSTM和基于BERT的算法的深度学习的文本分类模型的性能的影响。通过添加和移除不需要的代币，如标点符号和止挡词的添加和删除与模型的最终性能相关联的不需要的令牌引起的扰动。我们表明，这些深度学习方法包括BERT在四个标准基准数据集SST2，TREC-6，BBC新闻和Tweet_eval上的这种合法输入扰动敏感。与添加令牌相比，我们观察到伯特更容易去除令牌。此外，与基于CNN的模型相比，LSTM对输入扰动稍微敏感。这项工作还担任评估模型最终表现的火车测试条件下差异影响的实用指南。

translated by 谷歌翻译

Dynamically Modular and Sparse General Continual Learning

Arnav Varma , Elahe Arani , Bahram Zonooz

分类：计算机视觉 | 人工智能 | 机器学习 | 神经与进化计算

2023-01-02

Real-world applications often require learning continuously from a stream of data under ever-changing conditions. When trying to learn from such non-stationary data, deep neural networks (DNNs) undergo catastrophic forgetting of previously learned information. Among the common approaches to avoid catastrophic forgetting, rehearsal-based methods have proven effective. However, they are still prone to forgetting due to task-interference as all parameters respond to all tasks. To counter this, we take inspiration from sparse coding in the brain and introduce dynamic modularity and sparsity (Dynamos) for rehearsal-based general continual learning. In this setup, the DNN learns to respond to stimuli by activating relevant subsets of neurons. We demonstrate the effectiveness of Dynamos on multiple datasets under challenging continual learning evaluation protocols. Finally, we show that our method learns representations that are modular and specialized, while maintaining reusability by activating subsets of neurons with overlaps corresponding to the similarity of stimuli.

translated by 谷歌翻译

Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages

Arnav Mhaske , Harshit Kedia , Sumanth Doddapaneni , Mitesh M. Khapra , Pratyush Kumar , Rudra Murthy V , Anoop Kunchukuttan

分类：自然语言处理

2022-12-20

We present, Naamapadam, the largest publicly available Named Entity Recognition (NER) dataset for the 11 major Indian languages from two language families. In each language, it contains more than 400k sentences annotated with a total of at least 100k entities from three standard entity categories (Person, Location and Organization) for 9 out of the 11 languages. The training dataset has been automatically created from the Samanantar parallel corpus by projecting automatically tagged entities from an English sentence to the corresponding Indian language sentence. We also create manually annotated testsets for 8 languages containing approximately 1000 sentences per language. We demonstrate the utility of the obtained dataset on existing testsets and the Naamapadam-test data for 8 Indic languages. We also release IndicNER, a multilingual mBERT model fine-tuned on the Naamapadam training set. IndicNER achieves the best F1 on the Naamapadam-test set compared to an mBERT model fine-tuned on existing datasets. IndicNER achieves an F1 score of more than 80 for 7 out of 11 Indic languages. The dataset and models are available under open-source licenses at https://ai4bharat.iitm.ac.in/naamapadam.

translated by 谷歌翻译

Emergent social NPC interactions in the Social NPCs Skyrim mod and beyond

Manuel Guimarães , Pedro A. Santos , Arnav Jhala

分类：人工智能

2022-07-27

这项工作介绍了一种在开放世界游戏中为非演奏世界运动而创作非玩家角色（NPC）的社会建筑模型的实施，该游戏受到基于代理建模的学术研究的启发。就丰富的对话和响应行为而言，可信的NPC创作是繁重的。我们简要介绍了为此任务使用社会代理体系结构的特征和优势，并描述了社会代理体系结构CIF-CK作为Mod Social NPC的实现

translated by 谷歌翻译

Adversarial Attacks on Monocular Pose Estimation

Hemang Chawla , Arnav Varma , Elahe Arani , Bahram Zonooz

分类：计算机视觉 | 人工智能

2022-07-14

深度学习的进步已导致计算机视觉的稳定进步，并提高了对象检测和语义细分等任务的准确性。然而，深度神经网络容易受到对抗攻击的影响，因此在可靠的部署中提出了挑战。 3D场景对机器人技术和高级驱动辅助系统的理解中的两个突出任务是单眼的深度和姿势估计，通常以无监督的方式一起学习。尽管存在评估对抗性攻击对单眼深度估计的影响的研究，但缺乏对对抗性扰动对姿势估计的系统性证明和分析。我们展示了加性不可感知的扰动不仅可以改变预测以增加轨迹漂移，还可以改变其几何形状。我们还研究了针对单眼深度和姿势估计网络的对抗性扰动之间的关系，以及将扰动转移到具有不同架构和损失的其他网络之间的关系。我们的实验表明，生成的扰动如何导致相对旋转和翻译预测的显着错误以及阐明网络的漏洞。

translated by 谷歌翻译

High Resolution Point Clouds from mmWave Radar

Akarsh Prabhakara , Tao Jin , Arnav Das , Gantavya Bhatt , Lilly Kumari , Elahe Soltanaghaei , Jeff Bilmes , Swarun Kumar , Anthony Rowe

分类：机器人

2022-06-18

本文探讨了一种机器学习方法，用于从单芯片MMWave雷达产生高分辨率点云。与激光雷达和基于视觉的系统不同，MMWave雷达可以在恶劣的环境中运行，并通过烟雾，雾气和灰尘等遮挡。不幸的是，与激光点云相比，当前的MMWAVE处理技术可提供差的空间分辨率。本文介绍了Radarhd，这是一种端到端的神经网络，该网络从低分辨率雷达输入中构造了激光雷达点云。由于存在镜面和虚假的反射，增强雷达图像是具有挑战性的。由于信号的类似SINC的扩展模式，雷达数据也不能很好地映射到传统的图像处理技术。我们通过在大量的RAW I/Q雷达数据上训练Radarhd与各种室内环境中的LiDar Point云配对来克服这些挑战。我们的实验表明，即使在训练期间未观察到的场景和存在浓烟的情况下，也能够产生丰富的点云。此外，Radarhd的点云足够高，足以与现有的LiDAR ODOMETIRE和映射工作流程配合使用。

translated by 谷歌翻译

Stain Normalized Breast Histopathology Image Recognition using Convolutional Neural Networks for Cancer Detection

Sruthi Krishna , Suganthi S. S , Shivsubramani Krishnamoorthy , Arnav Bhavsar

分类：计算机视觉

2022-01-04

计算机辅助诊断数字病理学正在变得普遍存在，因为它可以提供更有效和客观的医疗保健诊断。最近的进展表明，卷积神经网络（CNN）架构是一种完善的深度学习范式，可用于设计一种用于乳腺癌检测的计算机辅助诊断（CAD）系统。然而，探索了污染变异性因污染变异性和染色常规化的影响，尚未得到很好的挑战。此外，对于高吞吐量筛选可能是重要的网络模型的性能分析，这也不适用于高吞吐量筛查，也不熟悉。要解决这一挑战，我们考虑了一些当代CNN模型，用于涉及（1）的乳房组织病理学图像的二进制分类。使用基于自适应颜色解卷积（ACD）的颜色归一化算法来处理污染归一化图像的数据以处理染色变量; （2）应用基于转移学习的一些可动性更高效的CNN模型的培训，即视觉几何组网络（VGG16），MobileNet和效率网络。我们在公开的Brankhis数据集上验证了培训的CNN网络，适用于200倍和400x放大的组织病理学图像。实验分析表明，大多数情况下预染额网络在数据增强乳房组织病理学图像中产生更好的质量，而不是污染归一化的情况。此外，我们使用污染标准化图像评估了流行轻量级网络的性能和效率，并发现在测试精度和F1分数方面，高效网络优于VGG16和MOBILENET。我们观察到在测试时间方面的效率比其他网络更好; vgg net，mobilenet，在分类准确性下没有太大降低。

translated by 谷歌翻译

Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization Space

Arnav Chavan , Zhiqiang Shen , Zhuang Liu , Zechun Liu , Kwang-Ting Cheng , Eric Xing

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-03

本文探讨了从视觉变压器查找最佳子模型的可行性，并引入了纯Vision变压器减肥（VIT-SLIM）框架，可以在跨多个维度从原始模型的端到端搜索这样的子结构，包括输入令牌，MHSA和MLP模块，具有最先进的性能。我们的方法基于学习和统一的L1稀疏限制，具有预定的因素，以反映不同维度的连续搜索空间中的全局重要性。通过单次训练方案，搜索过程非常有效。例如，在DeIT-S中，VIT-SLIM仅需要〜43 GPU小时进行搜索过程，并且搜索结构具有灵活的不同模块中的多维尺寸。然后，根据运行设备上的精度折叠折衷的要求采用预算阈值，并执行重新训练过程以获得最终模型。广泛的实验表明，我们的耐比可以压缩高达40％的参数和40％的视觉变压器上的40％拖鞋，同时在Imagenet上提高了〜0.6％的精度。我们还展示了我们搜索模型在几个下游数据集中的优势。我们的源代码将公开提供。

translated by 谷歌翻译

MHATC: Autism Spectrum Disorder identification utilizing multi-head attention encoder along with temporal consolidation modules

Ranjeet Ranjan Jha , Abhishek Bhardwaj , Devin Garg , Arnav Bhavsar , Aditya Nigam

分类：计算机视觉 | 机器学习

2021-12-27

休息状态FMRI通常用于通过使用基于网络的功能连接来诊断自闭症谱系期（ASD）。已经表明，ASD与大脑区域相关联及其连接。然而，基于控制群体的成像数据和ASD患者大脑的成像数据之间的判别是一种非琐碎的任务。为了解决上述分类任务，我们提出了一种新的深度学习架构（MHATC），包括多针关注和时间整合模块，用于将个体分类为ASD的患者。设计的架构是由对当前深度神经网络解决方案的局限性进行了深入分析了类似应用的局限性。我们的方法不仅坚固但计算效率，可以在各种其他研究和临床环境中采用它。

translated by 谷歌翻译